刘惠军
武汉大学珞珈特聘教授、博士生导师。1995年及1998年在武汉大学分别获学士和硕士学位,2003年在香港科技大学获博士学位,2008年入选教育部“新世纪优秀人才支持计划”,2012年在美国University of Pittsburgh进行访问研究。长期从事理论及计算凝聚态物理、计算材料科学的研究工作,特别是从第一性原理出发对材料的性质进行计算和设计新材料。
【摘要】在追求可持续发展的未来,热电材料是不可或缺的。它在全固态发电和制冷方面具有十分广泛的应用前景。在过去的几十年间,人们一直致力于寻找新型高性能热电材料。然而,传统的实验试错法效率较低,限制了新材料的研究步伐。机器学习作为一种具有强大数据分析能力的方法,近年来已越来越多地应用于热电材料的研究。这篇综述总结了热电材料研究领域常用的机器学习方法,系统地介绍了它们在材料结构、电子输运和热电输运等性质上的应用案例和相关研究进展,并对该领域的发展前景进行了展望。
热电材料作为一种绿色能源材料,可以通过塞贝克(Seebeck)效应和帕尔贴(Peltier)效应实现热能和电能的直接相互转换[0],[1],在全固态发电和制冷方面具有非常重要的应用前景,例如工业废余热和汽车尾气的回收利用、半导体芯片的降温、深海/空间特殊电源等等[2]-[4]。用热电材料制备的器件具有结构简单、无噪音、无污染、免维护等诸多优点,从而引起了全球科学家的广泛关注[5]。人们通常用无量纲的热电优值来表示材料的热电性能,其中是塞贝克系数,是电导率,是绝对温度,和分别代表电子热导率和晶格热导率。由于表达式中的这些输运系数相互耦合在一起,例如电导率的提高通常伴随着塞贝克系数的降低,热电材料的值通常难以得到大幅度的提高。过去几十年间,研究人员提出了许多具有创新性的概念和方法来提高材料的热电性能,例如低维化[6],[7]、能量过滤[8]、能带汇聚[9]、构造异质结[10]等等。尽管一些热电材料的值可以被提升至2.0以上[11],但离商业化应用的目标(>3.0)还有一段距离,所以优化材料设计、筛选高性能热电材料仍然十分关键。然而,传统的实验试错法研究周期长,并且样品的制备与性能测量较为繁琐,无法做到大规模搜寻高性能热电材料。通过第一性原理计算预测材料的热电性能虽然可以免去实验消耗,但却难以处理结构复杂的材料体系,严重限制了热电材料的搜索空间。近年来,得益于大数据科学和人工智能的快速发展,材料信息学为加速材料的研究提供了一种新的思路[12]。机器学习作为材料信息学的核心技术之一已经在材料科学领域有诸多应用,例如钙钛矿光伏材料的设计[13]、锂电池的性能评估[14]、高效催化材料的筛选[15]等等。机器学习方法具有效率高、信息量大等特点,可以快速对某类材料进行性能分析及预测,大大加快了功能材料的研发速度。本文综述了机器学习在热电材料领域的应用进展,包括材料的结构、电子、热电输运等性质,这些研究工作试图挖掘热电性能与相关物理属性之间的某种关联,以便为材料的设计和研发提供有效的借鉴。文章最后总结了本研究领域存在的问题和挑战,并对未来的工作进行了展望。如图1所示,机器学习的框架主要包括三个部分:(1)数据集的获取;(2)特征参数的选择;(3)利用合适的算法进行训练。用于机器学习的数据需要包含给定材料的结构信息和其它物理特性,这些数据可以通过理论计算(例如第一性原理[16]、分子动力学[17]、晶格动力学[18]等)、实验研究或材料数据库获得。随着计算模拟、实验表征的进步和计算机性能的不断提高,向公众开放的材料数据库越来越多。表1列举了一些常用的材料科学数据库网站,例如:无机晶体结构数据库(Inorganic Crystal Structure Database,ICSD)[19]、开放量子材料数据库(Open Quantum Materials Database,OQMD)[20]、高通量计算数据平台(Automatic-FLOW,AFLOW)[21]等等。通过这些途径,我们可以构建包含材料信息的有效数据集供机器学习训练。机器学习的目的是建立特征参数和目标属性之间的映射关系,而特征参数(例如原子质量、轨道半径、晶格常数、电负性、态密度等)作为机器学习中输入的一部分,包含了材料结构和性质的代表性信息。因此,选择合适的特征参数是机器学习模型构建过程中的关键因素。图2列举了一些与热电性能相关的常用特征参数[22]。一般来说,与材料相关的特征参数可以分为以下几类:(1)包含结构信息的特征参数:晶格常数、化合物中原子的个数、密度、体积、总能、每个原子的能量等;(2)与组成元素相关的特征参数,例如:原子序数、原子质量、共价键半径、元素周期表中的位置、泡利电负性等;(3)与具体研究性质相关的特征参数,例如Carrete等人在利用机器学习方法研究半赫斯勒体系的晶格热导率时,考虑了格林艾森常数、群速度、比热等物理量[23],[24]。在材料科学研究工作中常用的机器学习算法包括贝叶斯优化(Bayesian Opitimization,BO)[25],[26]、随机森林(Random Forests,RF)[27]、人工神经网络(Artificial Neural Network,ANN)[28]-[30]、确定独立筛选和稀疏操作符(Sure Independence Screening and Sparsifying Operators,SISSO)[31], [32]、套索(Least Absolute Shrinkage and Selection Operator,LASSO)[33]、最小二乘回归(Ordinary Least Squares Regression,OLSR)[34]、稀疏偏最小二乘回归(Sparse Partial Least Squares Regression,SPLSR)[35]、支持向量回归(Support Vector Regression,SVR)[35]、广义线性回归(Generalized Linear Regression,GLR)[36]、高斯过程回归(Gaussian Process Regression,GPR)[37]等等。作为例子,接下来我们依次对BO、RF、ANN、SISSO这四种算法作简要的介绍。在机器学习方法中,BO算法作为一种十分有效的全局优化算法,通过选择恰当的概率代理模型和采集函数,不需要进行过多函数评估就可获得理想解,非常适合求解目标函数表达式未知和评估代价高昂的优化问题。近年来,在材料科学的结构设计问题上被广泛应用。BO最核心的两个部分为概率代理模型和采集函数。其中概率代理模型指的是用于代替处理复杂目标函数的概率模型,根据模型的参数是否固定,可以将其分为参数模型和非参数模型。常用的参数模型有:贝塔-伯努利(Beta-Bernoulli)模型、线性模型;非参数模型包括:高斯过程(Gaussian Process,GP)模型、RF模型等。而所谓的采集函数是指根据代理模型后验概率分布构造的主动选择策略,常见的有:PI(probability of improvement)、EI(expected improvement)、TS(Thompson sampling)、ESP(entropy search portfolio)等等[38]。以GP代理模型作为示例[26,27],BO算法优化过程如下:首先从数据集中随机选择两个观测值并建立GP模型,再通过以下两种方式更新模型:(1)对预期观察特性最佳的点进行采样;(2)通过包含采样点的观测值来更新模型。重复执行这两个步骤,直到对所有数据进行采样[39]。在讨论RF算法之前,我们先简要介绍一下决策树(Decision Tree,DT)算法[40],它是随机森林的基本单元。DT是一种有监督的机器学习方法,它根据某些参数将处理后的数据分成连续的几个部分。每棵树由决策节点和叶子节点两部分组成,决策节点是拆分数据的地方,叶子节点则提供决策或最终结果,而RF[28]是一种常用的集成学习算法,将多棵决策树组合到一个模型中以提高预测能力。它具有以下优点:能够评估各个特征参数在分类问题中的重要性;可以很好地处理异常数据或高维数据,不容易产生过拟合;具有很高的准确性;并且模型训练速度较快,特别是对于大样本数据而言具有一定的优势[41]。原则上,可以通过以下步骤来建立一个RF模型。首先,利用自助法(Bootstrap Method)从初始数据集中随机抽取n个样本作为训练集。其次,假设在样本中有M个特征参数,从中选择m个特征子集(m的数目远小于M),让每棵树每次选择最好的一个特征进行分裂,使其在不做任何修剪的情况下最大限度地生长。最后,将生成的多棵树组成随机森林,从而对新的数据进行分类与回归。随机森林的分类效果与两个因素密切相关:任意两棵树的相关性越大,错误率越高;每棵树的分类能力越强,整个森林的错误率越低。ANN是受生物神经网络启发的机器学习算法[29],它是由大量神经元互联而成的非线性、自适应的信息处理系统,具有人脑的学习、记忆、概括、归纳等特征。与传统方法相比,ANN的优势在于其强大的自学能力、具有联想存储功能、以及快速寻找优化解的能力[30,31]。最基本的和最常用的ANN算法至少包含三层网络,即输入层、输出层、以及许多隐藏层。输入层中神经元用来接收外界输入,而隐藏层与输出层的神经元是拥有激活函数的功能神经元,可以对信号进行加工,最终结果由输出层神经元输出。每个神经元的传递函数是特定的,它们之间的每个连接都代表了一个通过该连接信号的权重,以此来模拟人的记忆。ANN模型的建立主要包括收集训练数据、设计网络结构、数据预处理、权重初始化、网络训练等流程。ANN模型具有多种形式,它取决于学习算法、神经元的传递函数、网络的拓扑结构等等,一般来说,它可以按结构方式不同分为前馈网络和反馈网络;按状态方式不同分为离散型网络和连续型网络;按学习方式不同分为有监督学习网络和无监督学习网络[42]。SISSO是Ouyang等人发展的基于压缩感知原理的数据驱动算法[32],可广泛用于回归、分类、多任务学习等问题。利用SISSO算法不但可以进行材料性能的预测,还能给出具有物理可解释性的描述符。图3展示了SISSO方法的流程图,主要分为特征空间构造和寻找最优描述符两部分。第一步为特征空间构造:初始特征空间由输入特征参数构成,一般为与目标特性相关的物理量,例如原子半径、电负性、价电子数等等,然后通过一系列运算操作符()进行非线性运算从而得到大量的特征组合(也被称为描述符),这些特征组合构成的集合为特征空间。值得注意的是,在运算过程中:类似“半径+质量”和“键长+质量´质量”等没有物理意义的操作都是被禁止的,从而保证获得描述符的合理性。第二步为寻找最优描述符:采用SIS(确定独立筛选)来评估中每个描述符与目标属性的Pearson相关性,并选择相关性较高的描述符作为特征子空间,从而可以有效降低特征空间的维度。最后,通过SO(稀疏操作符)从降维后的子空间中寻找最优描述符。
材料的晶体结构与热电性能息息相关,因为结构(例如赫斯勒、反赫斯勒和半赫斯勒结构)的差异会对热电输运性质产生显著影响。随着材料信息学的发展,越来越多的工作利用机器学习方法来预测材料的结构特性,尤其是晶格常数。在早期研究中,Li等人[43]在包含157个GeFeO3型化合物的训练集基础上,结合离子半径、电负性、价电子数等5个特征参数,利用ANN算法预测了该类化合物的晶格常数,其误差小于2%。Javed等人进一步利用相同的特征参数,基于SVR算法研究了相同的体系,将误差减少到只有1%[36]。2017年,Takahashi等人[44]选择1541个具有体心立方结构的二元化合物作为训练集,通过SVR算法来预测它们的晶格常数,交叉验证显示准确率可以达到83.6%。进一步,作者利用该算法确定了7个与晶格常数最相关的特征参数:包括原子序数、AB原子的电负性差等,为其它复杂体系的研究提供了很好的借鉴。作者在另一部分工作中[45],首先利用无监督的机器学习方法(高斯混合模型)从4130个AmBn型化合物中筛选出包含492种结构的2952个体系,进而通过有监督的机器学习方法(RF分类),选择包含原子序数、电负性、原子半径等8个特征参数来研究这些体系的晶格结构,并利用可视化的DT算法揭示了其中一些重要特征参数的物理含义。2019年,Ahmad等人[46]仅利用离子半径作为特征参数,基于137个半赫斯勒化合物训练的ANN模型,成功地预测了这类高温热电材料的晶格常数,其平均误差只有1.35%。除了晶格常数,机器学习方法在固体形成能和多晶型化合物结构预测方面也有广泛的应用。例如,Faber等人从Materials Project数据库中提取了3938种化合物,利用核岭回归算法(Kernel Righe Regression)研究了形成能的特征向量表示[47]。Oliynyk等人[48]构建了包含1037个三元多晶型化合物的训练集,选择包括价电子数、主量子数、电负性在内的113个特征参数,利用CR-FS(Cluster Resolution Feature Selection)并结合SVM方法实现了对该类化合物晶体结构的准确预测。如图4(a)所示,作者仅通过组成元素的基本物理属性作为特征参数,成功地将数据集中的三元化合物划分为TiNiSi和ZrNiAl型两大类。在图4(b)中,作者对实验报道同时存在这两种结构的其它19个化合物进行了分类,说明该方法可以帮助我们确定某个体系最可能的晶体结构,或者有效预测含有特定元素的新化合物的晶体结构。2018年,他们利用实验合成的二元等原子结构的AB、三元等原子结构的ABC、全赫斯勒结构的A2BC等金属间化合物作为训练集,选择电负性、价电子数、原子半径等特征参数,利用SVM、RF、CR-FS等多种机器学习方法来预测新的金属间化合物[49]。最近,人们尝试利用机器学习方法对材料结构进行优化来提高体系的热电性能。例如,Yamawaki等人[50]以石墨烯纳米带为例,展示了BO算法在结构优化和热电输运性质研究方面的应用。通过分析发现,除了沿边缘的六边形晶格外,将缺陷引入石墨烯的整个区域可以提高体系的功率因子。该研究与他们小组以前的工作类似[51],证明BO算法在探索晶体结构和相关物理性质方面具有一定优势。图4,(a)利用CR-FS模型对三元化合物晶体结构预测的概率分布,(b)19种多晶型化合物晶体结构预测的概率分布[49]。众所周知,电子能带结构对材料的热电性能具有重要影响,性能优异的热电材料通常是窄带隙半导体。图5以过渡金属碳(氮)化物MXene为例,展示了利用机器学习方法预测材料带隙的流程图[52],包括从数据库中筛选合适的训练数据、选择相关的特征参数、基于回归算法对带隙值进行预测。近年来,有一些文献报道了回归模型在带隙预测方面的应用[53]-[60]。Setwayan等人[54]从AFLOW数据库中随机筛选了带隙在1~12eV范围内的100多个化合物作为训练集,用OLSR方法评估了PBE泛函计算的带隙与实验值之间的关系。Dey等人[35]基于28个经过实验测量带隙的黄铜矿化合物,选取化合物中每个元素的原子序数、电负性、价态等作为特征参数,利用LASSO、OLSR、SPLSR等算法预测了200多种三元黄铜矿体系的带隙。Lee等人[55]将270个通过G0W0方法精确计算了带隙值的二元和三元化合物作为训练集,选取组成元素的基本物理属性和化合物的晶体结构作为特征参数,采用SVR、OLSR、LASSO算法构建了三种不同的带隙预测模型,通过比较发现SVR算法具有最高的准确度,其均方根误差只有0.24eV。最近,人们开始利用更先进的集成学习(Ensemble Learning, EL)算法并结合回归模型来预测化合物的带隙,以此来提高预测结果的准确性。例如,Xu等人[58]将119个类金刚石化合物作为训练样本,选取晶格参数、平均价电子数、原子数等42个特征参数,利用LASSO、SVR、GBDT(Gradient Boosting Decision Tree)以及这三种方法集成的EL算法,对典型热电材料-类金刚石化合物的带隙进行了预测。Liang等人[59]受固体物理学中菲利普斯离子性理论启发,发掘了电负性、电离能、晶体结构类型等与带隙相关的重要特征参数,并利用计算二维材料数据库(Computational 2D Materials Database)中的化合物作为训练集,基于LASSO算法建立了AmBn型体系的带隙预测模型。图5, 利用机器学习方法预测MXene带隙的示意图[53]。除了电子能带结构之外,研究人员利用机器学习方法对塞贝克系数、功率因子、载流子浓度、电子弛豫时间等电输运性质的探索也取得了一定的进展。2018年,Furmanchuk等人[61]将收集到的实验数据作为训练集,选取了包含组成元素基本物理属性在内的452个特征参数,基于RF算法成功预测了一系列化合物的塞贝克系数。此外,作者还探索了不同温度下的塞贝克系数与值之间的关系,其结果对寻找高性能热电材料具有指导意义。2019年,Hou等人[62]利用在300~840K温度范围内测量的一系列Al23.5+xFe36.5Si40-x(x=0.0,1.5,1.8,2.0,2.2)化合物的功率因子作为训练数据,基于GPR方法来调整Al/Si比辅助合成非整数配比的化学样品Al23.5+xFe36.5Si40-x,快速有效地找到了中温范围内具有高功率因子的最佳Al/Si比。Miller等人[34]基于127个多元化合物构成的训练集,利用包括RF、线性回归模型、神经网络(Neural Network,NN)等在内的多种机器学习方法对类金刚石结构掺杂体系的极限载流子浓度进行了预测。与RF、NN两种算法相比,基于线性回归模型得到的结果表现出更高的精度。另外,Katsura等人[63]于开发了一个叫做Starrydata2的网络系统,可以加速从发表论文中获得相关的实验数据。比如,作者通过分析从Starrydata2获得的207个数据评估了不同载流子浓度下的PbTe化合物的电子弛豫时间。众所周知,在利用形变势理论求解电子弛豫时间时,弹性常数是不可或缺的。Wang等人[64]利用反向传播算法训练得到的单隐藏层前馈神经网络(Single-hidden Layer Feedforward Neural Network,SLFNN)、通用回归神经网络(General Regression Neural Network, GRNN)和SVR方法来校正密度泛函理论(Density Function Theory,DFT)计算得到的单质和二元合金的弹性常数。这种快速有效的机器学习方法同样可以借鉴到其它的多元合金体系,对材料电输运性质的研究起到一定的促进作用。材料的热输运性质在热电性能评估中扮演着重要角色,较低的热导率是性能优异的热电材料的必备要素之一。然而,利用第一性原理等方法来研究材料的热导率时,会涉及到简谐和非简谐力常数的计算,这对于结构复杂的体系来说往往非常困难。近年来,高效的机器学习方法在热输运性质的研究中展现出巨大优势[65]-[70],我们在表2中总结了一系列相关的最新研究进展。例如,2014年,Zhou等人[66]使用压缩感知(Compressive Sensing,CS)方法建立了一种晶格动力学模型来计算力常数,可以处理结构复杂并且非谐性很强的化合物。同年,Carrete等人[24]构建了包含32个半赫斯勒化合物的训练集,选取三种不同性质的特征参数,采用RF回归算法预测了该类材料的晶格热导率,并从75个热力学稳定的半赫斯勒化合物中筛选出三种热导率低于5W/mK的体系,为进一步的实验研究提供参考。除此之外,作者还发现A、B位置平均原子半径较大的半赫斯勒化合物往往具有较低的晶格热导率,这也说明了特征参数的选择对于热输运性质的预测十分关键。在早期的研究中,Slack[71]曾提出四个经典的用于寻找低热导率材料的特征参数:较大的原子质量、较弱的化学键、复杂的晶格结构、较强的非谐性。Seko等人[67]发现对于岩盐结构的PbSe型体系,只需要化合物的体积和密度两个特征参数,就可以有效预测它们的热导率。作者又进一步增加了34个与组成元素相关的特征参数,并通过101个化合物训练得到的BO模型,从54779种化合物中发现了221种热导率非常低的材料,其中有两种带隙小于1eV,预示着它们潜在的热电应用价值。更进一步,Tanaka课题组[40]提出了一种从简单的元素和结构表示中生成一系列复合特征参数的程序,结合BO算法,可以对化合物的热导率进行有效预测。另一方面,机器学习还可以被用来预测复合材料的热导率。2018年,Wei等人[38]通过求解声子玻尔兹曼输运方程获得了一系列Quartet Structure Generation Set数据库中化合物的热导率,利用SVR、GPR和卷积神经网络(Convolutional Neural Network,CNN)并结合有效介质理论来预测复合材料的热导率,他们得到的结果与实验数据一致。最近,研究人员尝试利用机器学习方法研究原子间相互作用势来加速复杂体系热导率的计算。Korotaev等人[68]选取主动学习(Active Learning,AL)方法来获得原子间相互作用势,可以减少训练所需的计算量并提高可靠性;他们进一步通过声子玻尔兹曼输运理论或者格林-库伯公式来求解体系的晶格热导率,结果与实验数据吻合。2019年,Chan等人[69]利用第一性原理得到的键序作用势(Bond Order Potential, BOP)作为训练集,再通过HOGA算法(Hierarchical Objective Genetic Algorithm)得到的BOP模型进行分子动力学模拟,计算了不同手性的WSe2纳米管和纳米带在不同温度下的热导率。除此之外,Gu等人[71]利用ANN方法获得了单层MoS2、MoSe2及其合金的原子间相互作用势,在此基础上再通过分子动力学模拟计算了单层MoS2(1-x)Se2x合金的热导率,发现当x =50%时达到最小值,比MoS2的热导率降低了十倍。除了晶格热导率的预测,界面热输运特性的研究对于指导设计具有超低边界热导率的材料非常重要。2017年,Zhan等人[37]将实验测量的不同温度下的876个边界热阻率作为训练数据,选取德拜温度、声速等特征参数,利用GLR、GPR、SVR三种不同的算法来预测材料的边界热阻率,并将得到的结果与常用的声学失配模型(Acoustic Mismatch Model,AMM)和扩散失配模型(Diffuse Mismatch Model,DMM)进行比较。图6展示了通过上述不同算法获得的预测值与实验值之间的相关性,与传统的AMM和DMM模型相比,这些机器学习方法表现出更好的准确性。图6, 利用AMM、DMM、GLR、GPR、SVR方法预测的界面热阻值与实验值之间的相关性[37]。2018年,Yang[72]等人利用温度、耦合强度和拉伸应变等特征参数,基于DT、RF、ANN、DNN(Deep Neural Network)等算法预测了石墨烯和六方氮化硼(h-BN)之间的界面热导率,结果发现DNN算法在该问题的研究中展现出巨大的优越性。另一方面,界面结构优化对于发现具有特殊导热特性的材料也很重要。如图7所示,Ju等人[52]结合原子格林函数和BO算法来优化界面结构,将该方法应用于Si-Ge界面、Si/Ge超晶格的设计,他们确定了具有最高和最低界面热导率的结构,这说明BO算法对于处理结构数量较小的优化设计问题是十分高效的。然而当结构数量巨大时,用BO方法处理起来捉襟见肘,此时就需要用到蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)算法,比如Dieb和Ju等人曾利用MCTS进一步研究了Si-Ge合金表面和界面的热输运性能[73]。这些工作加深了我们对界面热输运机制的理解,也表明机器学习方法在结构设计方面的有效性。图7, 原子格林函数和贝叶斯优化方法结合获得优化的Si/Ge界面结构[50]。近年来,机器学习已逐渐用于搜索和设计高值的热电材料。2014年,Carrete等人[74]从AFLOW数据库中筛选了75个热力学稳定的半赫斯勒化合物,利用DT方法确定了与热电性能相关的特征参数。他们发现,半赫斯勒化合物具有高值的两个显著特点分别是较大的晶格常数、较宽的带隙(高温领域)或较大的有效质量(室温附近)。为了指导实验研究人员探索有前景的热电材料,Gaultois等人[75]于2016年建立了一种基于机器学习的搜索引擎(http://thermoelectrics.citrination.com)它能够根据预先筛选的25000种已知材料来推荐新型高性能热电材料,也可以用来评估用户设计的热电材料。为了确保预测的可靠性,作者测试了一组由引擎产生的示例化合物RE12Co5Bi(RE=Gd,Er)。如图8所示,该化合物具有较低的室温热导率,且随温度的升高而增加。对此类化合物反常输运性质的进一步研究,能够获得优化热电材料性能的新策略。众所周知,化学掺杂是一种优化材料热电性能的有效途径。然而,掺杂体系往往需要构建很大的晶胞,很难依靠第一性原理来计算。最近,人们尝试利用机器学习方法来预测掺杂体系的热电性能。例如,Wang等人[76]选取了包含金属Cu的热导率、塞贝克系数、电阻率等性质在内的11个特征参数,基于ANN算法对Bi-Te-Se块材的Cu掺杂比例进行了优化,发现Cu0.05Bi2Te2.85Se0.15具有最高的值0.86,比未掺杂体系提高了83%。此外,作者还利用BO算法对具有最优热电性能的微观结构进行了逆向探索。图8, RE12Co5Bi(RE=Gd,Er)化合物的(a)电阻率、(b)塞贝克系数、(c)热导率、(d)ZT值随温度的变化关系[76]。除了传统的热电材料外,目前研究人员开始利用机器学习方法对新兴的自旋驱动的热电(Spin-driven Thermoelectric,STE)材料进行研究[77],[78]。如图9所示,STE器件由磁性层和单晶衬底组成,当分别沿z方向和x方向施加温差和磁场时,由于反常能斯特(Nernst)效应和自旋轨道相互作用,热流被转换为电流,从而可以求出相应的塞贝克系数(y方向)。与传统热电器件相比,STE装置的制造工艺简单(例如溅射、涂覆和电镀),大大降低了制造成本。2019年,Iwasaki等人[78]提出了一种物理可解释的机器学习方法FAB/HMEs(Factorized Asymptotic Bayesian Inference Hierarchical Mixture of Experts),通过该方法研究了由磁性薄膜M100-xPtx和不同衬底(Si、AlN等)组成的STE器件的热电性能,并从中获得了一些新奇的物理机制。例如,作者根据FAB/HMEs算法对特征参数的排序,发现随着Pt原子的占比与其自旋极化强度的乘积增加而增大,由此他们合成了一种新型的具有较大自旋塞贝克效应的STE材料Co48.9Pt51.1N7.2。在另一部分工作中[79],他们利用自旋和轨道角动量、晶格失配率等特征参数,基于决策树回归(Decision Tree Regression,DTR)、弹性网络(Elastic Net,EN)、二次多项式LASSO(Quaratic Polynomial-LASSO)和NN等四种有监督的机器学习方法继续探究了与STE材料相关的基本物理机制,从而促进新型热电材料的优化设计。总而言之,尽管机器学习已越来越多地应用于热电性能的研究,但是因为值与塞贝克系数、热导率和电导率等输运系数之间复杂的相关性,导致预测准确性仍有所欠缺。此外,将实验数据用作训练集时不同程度地忽略了实验条件和样品制备的差异等,也会导致一定的预测偏差。图9, 自旋驱动热电(STE)装置的示意图[78]。迄今为止,人们在材料信息学领域已经进行了广泛的研究。与传统研究方式相比,机器学习在新型功能材料的高通量筛选和结构优化设计方面展现出巨大的优势。本文从结构、电子、热电输运性质等方面综述了机器学习在热电材料领域的最新代表性研究进展。虽然机器学习方法对大多数与热电相关性质的预测都表现出较高的准确性,但是仍然面临很多不容忽视的挑战,它很大程度上受到数据集的限制,以及特征参数选择和算法种类的影响。首先,机器学习作为一种数据驱动的方法,对数据具有较强的依赖性,而材料科学研究在目前数据量有限的情况下,往往会因为模型的过拟合降低机器学习的泛化能力。这需要研究人员一方面加强热电材料数据库的开发和完善,另一方面针对材料样本较小的特点,开发更先进的机器学习算法。此外,研究人员虽然通过比较不同算法的预测能力确定了最佳模型,但是它们没有揭示黑盒模型背后的物理机制,所以发掘具有物理可解释性的描述符也是目前机器学习领域一个有前景的研究方向。最近,我们课题组基于SISSO方法研究了半赫斯勒体系的晶格热导率。我们选取了86个具有不用化学配比的半赫斯勒化合物作为训练集,通过SISSO方法得到一个仅包含组成元素基本物理属性的三维描述符。研究表明,基于该描述符得到的热导率的预测值()与实验或计算值()之间的皮尔森(Pearson)相关系数为0.89。10折交叉验证(10-fold cross-validation)发现其均方根误差仅为3.41W/mK。不仅如此,SISSO方法得到的该描述符还具有物理可解释性,譬如我们分析描述符中的特征参数发现,半赫斯勒体系的晶格热导率与晶格常数、价电子数等基本参数具有较高的相关性。这个结果有助于理解热输运性质背后的物理机制,为设计新型热电材料提供理论依据。总之,机器学习已成为热电材料研究的强大工具,随着计算机科学和计算方法的发展,机器学习将在材料的发现与设计、器件的性能评估等方面具有更广泛的应用前景。本工作得到了国家自然科学基金(No.51772220和No. 11574236)的大力支持,部分机器学习工作是在武汉大学超算中心的高性能服务器上完成的。[0] T. J. Seebeck, Ann. Phys. 82, 253 (1826).[1] J. C. A. Peltier, Ann. Chem. 56, 371 (1834).[2] Q. Zhang, J. Liao, Y. Tang, M. Gu, C. Ming, P. Qiu, S. Bai, X. Shi, C. Uher, L. Chen, Energ. Environ. Sci. 10, 956 (2017).[3] G. E. Bulam, E. Siivola, B. Shen, R. Venkatasubramanian, Appl. Phys. Lett. 89, 122117 (2006).[4] W. Wang, F. Jia, Q. Huang, J. Zhang, Microelectron. Eng. 77, 223 (2005).[5] G. J. Snyder, E. S. Toberer, Nat. Mater. 7, 105 (2008).[6] L. D. Hicks, M. S. Dresselhaus, Phys. Rev. B: Condens. Matter 47, 12727 (1993).[7] L. D. Hicks, M. S. Dresselhaus, Phys. Rev. B: Condens. Matter 47, 16631 (1993).[8] J. P. Heremans, C. M. Thrush, D. T. Morelli, Phys. Rev. B: Condens. Matter 70, 115334 (2004).
[9] Y. Pei, X. Shi, A. LaLonde, H. Wang, L. Chen, G. J. Snyder, Nature 473, 66 (2011).[10] K. Biswas, J. He, I. D. Blum, C. I. Wu, T. P. Hogan, D. N. Seidman, V. P. Dravid and M. G. Kanatzidis, Nature 489, 414 (2012).[11] L. D. Zhao, G. J. Tan, S. Q. Hao, J. Q. He, Y. L. Pei, H. Chi, H. Wang, S. K. Gong, H. B. Xu, V. P. Dravid, C. Uher, G. J. Snyder, C. Wolverton, M. G. Kanatzidis, Science 351, 141 (2016).[12] A. Agrawal, A. Choudhary, APL Mater. 4, 053208 (2016).
[13] Q. Xu, Z. Li, M. Liu, W. J. Yin, J. Phys. Chem. Lett. 9, 6948 (2018).[14] K. A. Severson, P. M. Attia, N. Jin, N. Perkins, B. Jiang, Z. Yang, M. H. Chen, M. Aykol, P. K. Herring, D. Fraggedakis, M. Z. Bazant, S. J. Harris, W. C. Chueh, R. D. Braatz, Nat. Energy 4, 383 (2019).[15] K. Tran, Z. W. Ulissi, Nat. Catal. 1, 696 (2018).[16] A. Seko, A. Togo, H. Hayashi, K. Tsuda, L. Chaput, I. Tanaka, Phys. Rev. Lett. 115, 205901 (2015).[17] H. Yang, Z. Zhang, J. Zhang, X. C. Zeng, Nanoscale 10, 19092 (2018).[18] D. Ma, H. Ding, X. Wang, N. Yang, X. Zhang, Int. J. Heat Mass Transfer 108, 940 (2017).
[19] A. Belsky, M. Hellenbrandt, V. L. Karen, P. Luksch, Acta. Cryst. Sect. A Found Cryst. 58, 364 (2002).[20] S. Kirklin, J. E. Saal, B. Meredig, A. Thompson, J. W. Doak, M. Aykol, S. Rȕhl, C. Wolverton, npj Comput. Mater. 1, 15010 (2015).[21] S. Curtarolo, W. Setyawan, G. L. W. Hart, M. Jahnatek, R. V. Chepulskii, R. H. Taylor, S. Wang, J. Xue, K. Yang, O. Levy, M. J. Mehl, H. T. Stokes, D. O. Demchenko, D. Morgan, Comput. Mater. Sci. 58, 218 (2012).[22] T. Wang, C. Zhang, H. Snoussi, G. Zhang, Adv. Funct. Mater. 10, 1906041 (2019).[23] J. Carrete, W. Li, N. Mingo, S. D. Wang, S. Curtarolo, Phys. Rev. X 4, 011019 (2014).[24] S. H. Ju, J. Shiomi, Nanosc. Microsc. Therm. 2, 157 (2019).[25] J. Mockus, Bayesian Approach to Global Optimization, 473 (1989).[26] J. Snoek, H. Larochelle, R. P. Adams, Advances in neural information processing systems, 2951 (2012).
[27] L. Breiman, Random Forests 45, 261 (2001).[28] J. J. Hopfield, IEEE Circuits and Devices Magazine 4, 3 (1988).[29] H. Kurt, K. Atik, M. Ozkaymak, A. K. Binark, J. Energ. Inst. 80, 46 (2007).
[30] S. A. Kalogirou, Renew. Sust. Energ. Rev. 5, 373 (2001).[31] R. H. Ouyang, S. Curtarolo, E. Ahmetcik, M. Scheffler, L. M. Ghiringhelli, Phys. Rev. Mater. 2, 083802 (2018).
[32] C. J. Bartel, C. Sutton, B. R. Goldsmith, R. H. Ouyang, C. B. Musgrave, L. M. Ghiringhelli, M. Scheffler, Sci. Adv. 5, eaav0693 (2019).[33] S. A. Miller, M. Dylla, S. Anand, K. Gordiz, G. J. Snyder, E. S. Toberer, npj Comput. Mater. 4, 71 (2018).
[34] P. Dey, J. Bible, S. Datta, J. Jasinski, M. Sunkara, M. Menon, K. Rajan, Comput. Mater. Sci. 83, 185 (2014).[35] S. G. Javed, A. Khan, A. Majid, A. M. Mirza, J. Bashir, Comput. Mater. Sci. 39, 627 (2007).
[36] T. Z. Zhan, L. Fang, Y. B. Xu, Sci. Rep. 7, 7109 (2017).[37] H. Wei, S. Zhao, Q. Rong, H. Bao, Int. J. Heat Mass Transfer, 127, 908 (2018).
[38] J. X. Cui, B. Yang, J. Softw. 29, 3068 (2018).[39] A. Seko, H. Hayashi, K. Nakayama, A. Takahashi, I. Tanaka, Phys. Rev. B 95, 144110 (2017).
[40] B. Hssina, A. Merbouha, H. Ezzikouri, M. Erritali, Int. J. Adv. Comput. Sci. Appl. 4, 13 (2014).[41] V. Svetni, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, B. P. Feuston, J. Chem. Inform. Comput. Sci. 43, 1947 (2003).[42] Y. H. Zhang, Comput. Knowl. Tech. 14, 19, (2018).[43] C. H. Li, Y. H. Thing, Y. Z. Zeng, C. M. Wang, P. Wu, J. Phys. Chem. Solids 64, 2147 (2003).
[44] K. Takahashi, L. Takahashi, J. D. Baran, Y. Tanaka, J. Chem. Phys. 146, 204104 (2017).[45] K. Takahashi, L. Takahashi, J. Phys. Chem. Lett. 10, 283 (2019).[46] R. Ahmad, A. Gul, N. Mehmood, Mater. Res. Express 6, 046517 (2019).
[47] F. Faber, A. Lindmaa, O. A. V. Lilienfeld, R. Armiento, Intl. J. Quan. Chem. 115, 1094 (2015).[48] A. O. Oliynyk, L. A. Adutwum, B. W. Rudyk, H. Pisavadia, S. Lotfi, V. Hlukhyy, J. J. Harynuk, A. Mar, J. Brgoch, J. Am. Chem. Soc. 139, 17870 (2017).[49] A. O. Oliynyk, A. Mar, Acc. Chem. Res. 51, 59 (2018).[50] M. Yamawaki, M. Ohnishi, S. Ju, J. Shiomi, Sci. Adv. 4, eaar4192 (2018).
[51] S. Ju, T. Shiga, L. Feng, Z. Hou, K. Tsuda, J. Shiom, Phys. Rev. X 7, 021024 (2017).
[52] A. C. Rajan, A. Mishra, S. Satsangi, R. Vaish, H. Mizuseki, K. R. Lee, A. K. Singh, Chem. Mater. 30, 4031 (2018).[53] W. Setyawan, R. M. Gaume, S. Lam, R. S. Feigelson, S. Curtarolo, ACS Comb. Sci. 13, 382 (2011).
[54] J. Lee, A. Seko, K. Shitara, K. Nakayama, I. Tanaka, Phys Rev B 93, 115104 (2016).[55] Y. Zhuo, A. M. Tehrani, J. Brgoch, J. Phys. Chem. Lett. 9, 1668 (2018).
[56] L. Weston, C. Stampfl, Phys. Rev. Mater. 2, 085407 (2018).[57] Y. L. Xu, X. M. Wang, X. Li, L. L. Xi, J. Y. Ni, W. H. Zhu, W. Zhang, J. Yang, Sci. Sin. Tech. 49, 44 (2019).
[58] J. C. Liang, X. Zhu, J. Phys. Chem. Lett. 10, 5640 (2019).[59] Y. Huang, C. Y. Yu, W. G. Chen, Y. H. Liu, C. Li, C. Y. Niu, F. wang, Y. Jia, J. Mater. Chem. C 7, 3238 (2019).
[60] X. M. Wang, Y. L. Xu, J. Yang, J. Y. Ni, W. Zhang, W. H. Zhu, Comput. Mater. Sci. 169, 109117 (2019).[61] A. Furmanchuk, J. E. Saal, J. W. Doak, G. B. Olson, A. Choudhary, A. Agrawal, J. Comput. Chem. 39, 191 (2018).[62] Z. F. Hou, Y. Takagiwa, Y. Shinohara, Y. B. Xu, K. Tsuda, ACS Appl. Mater. Interfaces 11, 11545 (2019).[63] Y. Katsura, M. Kumagai, T. Kodani, M. Kaneshige, Y. Ando, S. Gunji, Y. Imai, H. Ouchi, K. Tobita, K. Kimura, K. Tsuda, Sci. Technol. Adv. Mater. 20, 511 (2019).
[64] J. Wang, X. Y. Yang, Z. Zeng, X. L. Zhang, X. S. Zhao, Z. G. Wang, Comput. Mater. Sci. 138, 135 (2017).[65] F. Zhou, W. Nielson, Y. Xia, V. Ozoliņš, Phys. Rev. Lett. 113, 185501 (2014).
[66] A. Seko, A. Togo, H. Hayashi, K. Tsuda, L. Chaput, I. Tanaka, Phys. Rev. Lett. 115, 205901 (2015).[67] P. Korotaev, I. Navoselov, A. Yanilkin, A. Shapeev, Phys. Rev. B 100, 144308 (2019).
[68] H. Chan, K. Sasikumar, S. Srinivasan, M. Cherukara, B. Narayanan, S. K. R. S. Sankaranarayanan, Nanoscale 11, 10381 (2019).[69] R. Juneja, G. Yumnam, S. Satsangi, A. K. Sing, Chem. Mater. 31, 5145 (2019).
[70] X. K. Gu, C. Y. Zhao, Comput. Mater. Sci. 165, 74 (2019).[71] G. A. Slack, J. Phys. Chem. Solids 34, 321 (1973).
[72] H. Yang, Z. T. Zhang, J. C. Zhang, X. C. Zeng, Nanoscale 10, 19092 (2018).[73] T. M. Dieb, S. H. Ju, K. Yoshizoe, Z. F. Hou, J. Shiomi, K. Tsuda, Sci. Technol. Adv. Mater. 18, 498 (2017).[74] J. Carret, N. Mingo, S. D. Wang, S. Curtarolo, Adv. Funct. Mater. 24, 7427 (2014).
[75] M. W. Gaultois, A. O. Oliynyk, A. Mar, T. D. Sparks, G. J. Mulholland, B. Meredig, APL Mater. 4, 053213 (2016).
[76] Z. L. Wang, Y. K. Yokoyama, T. Onda, Y. Adachi, Z. C. Chen, Adv. Electron. Mater. 5, 1900079 (2019).
[77] Y. Iwasaki, R. Sawada, V. Stanev, M. Ishida, A. Kirihara, Y. Omori, H. Someya, I. Takeuchi, E. Saitoh, S. Yorozu, Npj Comput. Mater. 5, 103 (2019).[78] Y. Iwasaki, I. Takeuchi, V. Stanev, A. G. Kusne, M. Ishida, A. Kirihara, K. Ihara, R. Sawada, K. Terashima, H. Someya, K. Uchida, E. Saiton, S. Yorozu, Sci. Rep. 9, 2751 (2019).[79] A. Zendehboudi, R. Saidur, I. M. Mahbubul, S. H. Hosseini, Heat Mass Transfer. 55, 397 (2019).为满足更多科研工作者的需求,蔻享平台开通了各科研领域的微信交流群。进群请添加微信18019902656(备注您的科研方向)小编拉您入群哟!蔻享网站www.koushare.com已开通自主上传功能,期待您的分享!
欢迎大家提供各类学术会议或学术报告信息,以便广大科研人员参与交流学习。